许多现实世界中的问题涉及多个可能相互矛盾的目标。多目标增强学习(MORL)方法已经出现了通过最大化偏好矢量加权的关节目标函数来解决这些问题。这些方法发现固定的定制策略对应于训练过程中指定的偏好向量。但是,设计约束和目标通常在现实生活中动态变化。此外,存储每个潜在偏好的策略是不可扩展的。因此,通过单个训练在给定域中获得整个偏好空间的一组Pareto前溶液至关重要。为此,我们提出了一种新颖的Morl算法,该算法训练一个通用网络以覆盖整个偏好空间。提出的方法是偏好驱动的MORL(PD-MORL),利用偏好作为更新网络参数的指导。在使用经典深海宝藏和果树导航基准测试的PD-MORL之后,我们评估了其在挑战多目标连续控制任务方面的性能。
translated by 谷歌翻译
人工智能(AI)模型的黑框性质不允许用户理解和有时信任该模型创建的输出。在AI应用程序中,不仅结果,而且结果的决策路径至关重要,此类Black-Box AI模型还不够。可解释的人工智能(XAI)解决了此问题,并定义了用户可解释的一组AI模型。最近,有几种XAI模型是通过在医疗保健,军事,能源,金融和工业领域等各个应用领域的黑盒模型缺乏可解释性和解释性来解决有关的问题。尽管XAI的概念最近引起了广泛关注,但它与物联网域的集成尚未完全定义。在本文中,我们在物联网域范围内使用XAI模型对最近的研究进行了深入和系统的综述。我们根据其方法和应用领域对研究进行分类。此外,我们旨在专注于具有挑战性的问题和开放问题,并为未来的方向指导开发人员和研究人员进行未来的未来调查。
translated by 谷歌翻译